论文推荐|[AAAI 2020] TextScanner:依序阅读分类的鲁棒场景文本识别

Original 马伟洪 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍AAAI 2020录用论文TextScanner: Reading Characters in Order for Robust Scene Text Recognition。该论文分析了现有的场景文本方法，包括基于RNN注意力的方法以及基于语义分割的方法的局限性，针对上述方法存在的不足之处提出改进。

图1 本文方法的对比结果

一、研究背景

场景文本识别任务在近几年得到很大的关注，现有的场景文本识别的方法主要分为两种，一种是基于RNN Attention的方法[1][2]，通过对编码后的图片特征序列使用注意力机制来对准字符同时进行解码；一种是基于语义分割的方法[3][4]，通过全卷积网络(FCN)输出分割图，利用连通域来确定字符的位置以及通道信息来确定字符的类别。

如图1所示，基于RNN注意力的方法在复杂背景或者弯曲文本的情况下，不能准确的定位到字符的位置，同时由于RNN的循环记忆机制，中间字符定位错误将会影响后续字符的识别，即“Attention Drift”问题，如图1第二行所示。基于分割的方法需要我们设定固定的阈值来得到二值化图，该二值化操作容易导致过分割或者欠分割的问题，如图1第三行所示。针对上面存在的问题，作者提出将字符定位以及分类由两个并行的分支来独立优化，避免对各自的干扰，对比的实验效果如图1所示。

二、方法原理简述

图2 TextScanner框架图

本文提出的TextScanner框架包含两个分支，一个分支为字符分类分支，每个像素包含多通道的类别输出结果；另一个分支为几何属性分支，用来预测字符的位置以及顺序。字符中心的定位需要字符级别的标注作为监督信息，然而现实场景中缺少字符的标注数据。针对这个问题作者提出互监督机制，可以利用序列标注的信息来让分类分支以及几何分支互相监督。

Class Branch分支从Backbone网络提取特征图后，经过3x3，1x1的卷积核后，输出特征图尺度为HxWxC, 其中C代表的是所有的类别个数。

Geometry Branch分支从Backbone提取特征后，经过一个Sigmoid激活函数，输出特征图尺度为HxW，得到Localization Map。同时将Backbone提取的特征经过图3 的金字塔型的网络，得到Order Segmentation Map, 输出特征图尺度为HxWxN，其中N为预定义的文本行最长字符数。

通过上面两个分支的输出，我们分别得到Classification Map, G以及Order Map, H, 通过如下的公式计算第k个字符的所有类别的概率.当第k个字符的类别最大概率小于预定义阈值，或者k达到最大的预定义长度，即停止解码过程，最终得到图2的Word Formation的结果。

图3 Geometry Branch中的FPN结构

图4 互监督在第一个字符时的可视化说明

现实场景中的数据缺少字符级别的标注，论文提出的方法先在合成数据集上预训练，在预训练模型的基础上，基于提出的互监督机制在真实的文本行数据上微调。假设给定的序列识别结果为T，对于第k个字符，我们可以得到它的顺序k以及对应的字符T（k）。将真实场景的文本行图片输入到预训练后的模型后分别得到Order Segmentation H, Localization Map Q以及 Character Segmentation G,如图4所示，对于第1个字符，从H中取出对应顺序为1的字符区域，和Q中的区域进行点乘，同理从G中取出识别结果为T（k）的区域，和Q中的区域进行点乘，分别得到两个特征图以及，利用这两个特征图作为掩码来分别监督另外的分支输出结果。其中互监督过程中的损失如下所示，都属于交叉熵损失，互监督产生的损失为，即加权后的及。为了避免文本行中同类别的字符出现两次，如b所示的两个区域“N”,训练过程中提前过滤了该类数据。

训练过程，先利用合成数据来预训练模型，数据中通过预设置的高斯核生成字符区域的高斯图，获得字符的监督信息，接着在真实数据集上进行微调，训练的损失由四部分组成，为以及，分别代表Localization Map，Order Map，互监督以及Character Segmentation Map的损失。

三、主要实验结果及可视化结果

表1 TextScanner和其它方法的对比

图5 可视化的效果图

表2 MLT2017数据集上的对比实验

表3 消融实验: 不同设置下性能对比

表1对比了论文的方法在常用的文本行数据集上的对比，本文的方法主要有两方面的优点，（1）本文基于分割的思路，保证得到的预测结果与视觉特征相关性更高，同时避免了RNN循环建模带来了误差累积的影响；（2）本文提出的Order Map从左到右扫描字符，符合正常的阅读顺序，同时提高了模型的性能，如图5所示列出了可视化的效果。

为了探索TextScanner在中文数据集上的有效性，表2给出了在MLT17数据集上对与CRNN[5],ASTER[6]的对比效果，相比之下TextScanner有很大的提高，主要得益于论文中将解码过程中的定位和分类独立出来，避免了Attention方法在中文字符等复杂结构下解码错误。

表3对Geometry Branch以及Order Map的效果做了消融实验，同时加上这两个设置达到的性能是最佳的，特别的在不规则数据集IC15以及SVTP上能够分别提高7.4%及10.2%。

四、总结及讨论

本文分析了现有的文本行识别方法，包括基于attention解码方法及基于分割的识别方法，提出将分类分支和几何属性分支独立优化，保证字符顺序的预测不会受到分类错误的影响；同时论文提出了互监督机制，使得字符顺序的输出结果能够在微调阶段监督分类分支的结果。

论文通过实验证明了该方法在现有的文本行数据集上的性能，对于困难的文本行数据也能有很好的处理能力。

五、相关资源

TextScanner论文地址：https://arxiv.org/pdf/1912.12422.pdf
CRNN论文地址: https://arxiv.org/pdf/1507.05717.pdf
ASTER论文地址: https://ieeexplore.ieee.org/document/8395027

参考文献

[1] Shi, Baoguang, et al. "Robust scene text recognition with automatic rectification." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[2] Cheng, Zhanzhan, et al. "Aon: Towards arbitrarily-oriented text recognition." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[3] Lyu, Pengyuan, et al. "Mask textspotter:An end-to-end trainable neural network for spotting text with arbitrary shapes." Proceedings of the European Conference on Computer Vision(ECCV). 2018.

[4] Liao, Minghui, et al. "Scene text recognition from two-dimensional perspective." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.

[5] Shi, Baoguang, Xiang Bai, and Cong Yao."An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition." IEEEtransactions on pattern analysis and machine intelligence 39.11 (2016):2298-2304.

[6] Shi, Baoguang, et al. "Aster: An attentional scene text recognizer with flexible rectification." IEEE transactions on pattern analysis and machine intelligence 41.9 (2018):2035-2048.

原文作者：ZhaoyiWan, Minghang He, Haoran Chen, Xiang Bai, Cong Yao

撰稿：赖松轩

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

▼

往期精彩内容回顾

▼

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。

(扫描识别如上二维码加关注）

事关收入，赶紧确认！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

论文推荐|[AAAI 2020] TextScanner:依序阅读分类的鲁棒场景文本识别

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

事 关 收 入 ，赶 紧 确 认 ！！！

万年县委书记毛奇案，又有新消息！

不生娃不买房，李健自曝消失3年真相：永远不要和人性较劲

三联，刺痛了多少中国人

六大火药桶：世界种种动荡背后的历史逻辑

生成图片，分享到微信朋友圈

论文推荐|[AAAI 2020] TextScanner:依序阅读分类的鲁棒场景文本识别

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

事关收入，赶紧确认！！！